GeForce 30 (문단 편집)

== 특징 ==
Ampere 아키텍처에 관한 자세한 정보는 [[https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf|whitepaper]], [[https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf|whitepaper V2 업데이트]] 참조

* '''[[삼성 파운드리|삼성전자]] 8N 공정으로 제조'''
 게이밍용 Ampere 아키텍처 기반의 GPU는 본래 [[TSMC]] 7 nm 공정을 염두에 두고 설계, 개발되었으나, TSMC와의 단가, 납기, 물량 협상이 결렬되며 삼성전자 파운드리 사업부로 이전했는데, 이 과정에서 8 nm로 마이그레이션이 이뤄졌다. NVIDIA의 커스텀이 가해진 8N 공정으로 표기하고 있지만, 구체적으로 삼성전자 8 nm의 어느 표준 셀을 기반으로 개발된 것인지는 알려져 있지 않다. 다만, 고클럭 달성을 위해 정황상 8LPP HD 표준 셀 기반이 유력하다. 더욱이 게이밍용 Ampere는 삼성전자가 사실상 처음으로 시도하는 빅칩 제품이고, 이 과정에서 마이그레이션도 이뤄졌기 때문에 [[읒증]]이 재현되거나, 비슷한 수준의 불량이 생길 가능성이 있다는 점을 지켜봐야 된다는 의견이 많았지만 결과적으로 읒증같은 큰 문제 없이[* 간혈적 크래싱이 문제되었지만 읒증 수준으로 번지진 않았으며 드라이버 패치를 통해서 개선되었고 삼성전자측의 문제는 아니라는 분석이 많다.] 경쟁사의 7 nm 공정을 사용한 제품보다 더 저렴하고 많은 물량을 공급하면서 좋은 평가를 받고 있다.

* '''스트리밍 멀티프로세서(SM) 내부의 최대 FP32 연산 스루풋이 2배 증가'''
 NVIDIA 공식 홈페이지에서는 RTX 30 시리즈의 CUDA 코어 수로 3090이 무려 '''10496'''개[*CUDA 유출된 자료 기준으로 딱 2배의 개수] 3080이 '''8704'''개[*CUDA] 3070이 '''5888'''개[*CUDA]로 나와있는데, 이게 영상 중간에 설명한 1개의 코어로 두배의 연산을 한다는 내용 기준으로 코어 수를 적은 것인지 정말로 물리적으로 저만한 수의 CUDA 코어를 박아놓은 것인지는 시간이 지나 봐야 알 수 있다는 의견이 있었다. 결론적으로는 후자 쪽에 더 가깝다. [[https://gigglehd.com/gg/hard/8132909|SM 내의 다이아그램]]을 보면 1개의 SM 내의 FP32 유닛은 64개에서 128개로 늘어났기 때문.
 그러나, 작동 방식은 상당히 복잡하기 때문에 이에 대하여 이해하기 위해서는 CUDA 플랫폼을 지원하는 NVIDIA 역대 아키텍처들의 SM(Streaming Multiprocessor) 구조에 대한 이해가 필요하다. NVIDIA GPU의 현행 SM 구조는 맥스웰 아키텍처부터 도입된 4개의 SM 파티션으로 구성이 되어 있으며, 파스칼 아키텍처까지는 SM 파티션 내에 1개의 데이터패스와, 한 사이클 당 16회의 INT32(32비트 정수 연산) 혹은 FP32(단정밀도 부동소수점 실수 연산)를 처리할 수 있는 유닛이 있었다. 따라서 1개의 SM 내에는 한 사이클 당 64회의 INT32 혹은 FP32를 처리할 수 있었다. 그리고 각 파티션 내의 데이터 패스가 1개이기 때문에 실제로는 파티션 내에 정수 연산과 부동소숫점 연산을 둘 다 동시에 수행할 수는 없어서 한 사이클에 INT32만 하던지, FP32만 하던지 둘 중 하나만 가능했으므로 이는 구조적인 낭비였다.
 그래서 볼타 아키텍처부터 SM 내의 파티션 내의 데이터 패스가 2개로 늘어났고 각각의 데이터 패스가 16개의 INT32 유닛, 16개의 FP32 유닛과 연결되어 서로 독립적인, 병렬적인 연산이 가능해졌다. 그러나 실제 그래픽 연산에서 정수 연산은 FP32 연산만큼 자주 쓰이지 않기 때문에 이 또한 구조적인 낭비 문제에 벗어날 수 없었다. 튜링 아키텍처도 RT 코어가 추가된 점을 제외하면 볼타 아키텍처와 동일한 단점을 지니고 있고, A100에 채택된 연산 특화용 암페어 아키텍처도 마찬가지였다. 튜링 아키텍처 whitepaper에서 정수 연산 비중이 FP32 대비 커봐야 절반 정도, 작게는 1/6 비중까지 측정된 NVIDIA 자체 그래프를 통해 확인할 수 있다.
 그래서 게이밍용 암페어 아키텍처부터 데이터 패스는 여전히 2개지만 하나의 데이터 패스는 온전히 16회의 FP32 연산만을 전담하는 유닛, 그리고 다른 하나의 데이터 패스는 파스칼 아키텍처 시절처럼 16회의 FP32 or INT32 연산를 실행할 수 있는 유닛을 두어, 결론적으로는 한 사이클 내에 '128회의 FP32' 연산 혹은 '64회의 FP32+64회의 INT32' 연산을 실행할 수 있게 되었다. 물론 데이터 패스는 여전히 2개이기 때문에 이론적인 SM 내부 스루풋과는 다르게 실제 워크로드에서의 SM 내부 연산 성능은 튜링 아키텍처 whitepaper에 나온 INT32 연산 비중 그래프를 토대로 이전 세대 대비 1.3~1.7배 수준에 머무를 것으로 보는 여론이 많으나, '''일단은 물리적인 FP32 연산 유닛의 증가가 2배로 이뤄진 것 자체는 맞다.'''
 다만, CUDA 코어라는 단어로 통용된 페르미 아키텍처 이래로 NVIDIA는 FP32 하나, INT32 하나를 합쳐서 '''CUDA 코어 1개'''로 정의해 왔는데,[* 물론, CUDA 코어라는 명칭만 없었을 뿐이지 FP32 하나, INT32 하나를 합친 개념의 단위 자체는 2006년에 CUDA와 함께 등장한 G80 아키텍처부터 정립되어 있었다.] 이번 세대부터는 오직 '''FP32 연산 유닛만을 CUDA 코어로 지칭하기 시작했고,''' 바뀐 정의에 따라 CUDA 코어 개수 표기도 FP32 연산 스루풋에 맞춰 2배로 늘린 것이라 보면 된다. 당장 FP32+INT32 독립·병렬 실행이 가능한 볼타~연산 특화용 암페어 아키텍처만 봐도 SM 하나당 64개+64개 해서 총 128개의 유닛이 되지만 CUDA 코어 개수는 '64개'로만 표기된다.

* '''SM 내부 L1 [[캐시 메모리]] 대역폭이 64 바이트/클럭 사이클 → 128 바이트/클럭 사이클로 2배 향상'''
 튜링 아키텍처 대비 SM당 L1 캐시 메모리 대역폭이 2배 향상되었다. 이는 더 많은 연산 유닛들을 효율적으로 데이터 전송할 수 있으면서 같은 연산 유닛이라도 처리 효율 증가를 의미하므로, 기본적인 게이밍 [[IPC]]가 소폭 향상되었다고 볼 수 있다. 비대해진 최대 FP32 연산 스루풋과 RT 코어를 이용한 레이 트레이싱 연산까지 모두 원활하게 병렬 연산할 수 있도록 [[병목 현상]]을 완화하기 위한 변경 사항이라고 볼 수 있다. 그런데, 128 바이트/클럭 사이클 자체는 이미 볼타 아키텍처에서 구현된 사양이라서 튜링 아키텍처에서 모종의 이유로 64 바이트/클럭 사이클로 축소되었다가 다시 볼타 아키텍처 수준으로 되돌린 꼴이므로, 아키텍처 발전 과정으로써 혁신적인 향상이라고 보기 어렵다.

* '''ROP 파티션의 재구성'''
 그동안 ROP 파티션은 L2 캐시 메모리 슬라이스 개수와 외부 GDDR 계열 SGRAM 메모리 채널 개수의 비에 맞게 구성되었기 때문에, 요구 메모리 대역폭에 맞게 대응할 수 있었다. 하지만, 2D로 투영된 지오메트리를 픽셀 단위로 바꿔주는 래스터라이저의 성능과 독립적인 구성이었기 때문에 래스터라이저의 스펙과 ROP 스펙의 밸런스가 안 맞는 경우로 조합되는 단점이 있어서 그 부분에 비효율적일 수밖에 없었다. 이를 해결하기 위해 래스터라이저의 스펙에 맞게 재구성 된 것. 래스터라이저가 포함된 래스터 엔진 1개에 ROP 16개씩 구성되는데, 이는 래스터라이저의 성능과 ROP 성능이 둘 다 16 픽셀/클럭 사이클로 일치하는 구성이기도 하다. 반대로 말하자면 ROP 성능과 메모리 대역폭의 밸런스가 안 맞는 경우가 발생할 수 있다는 것.
 참고로, L2 캐시 메모리 슬라이스 개수와 외부 메모리 채널 개수가 아닌 래스터라이저 개수에 밸런스를 맞춘 구성 방식은 경쟁사도 이미 1세대 [[GCN]] 마이크로아키텍처부터 사용된 방식이다.

* '''같은 프레임률 기준 최대 1.9배의 전성비 향상'''
 전성비가 RTX 3080 기준으로 이전 세대인 RTX 2080 super 대비 최대 1.9배 향상되었다. [[https://photo.coolenjoy.net/data/editor/2009/20200922124131_img.jpg|더 정확히는 동일 성능(FPS)에서 전력소모가 최대 47%만큼 감소하였다.]]

* '''2세대 RT 코어'''
 처음 도입된 튜링 아키텍처에서 진보된 RT 코어. 기존의 셰이딩과 레이 트레이싱의 동시 연산을 보장할 수 있게 되었고, 추적할 광선과 폴리곤의 교차 테스트에서 컬링 성능이 2배 빨라짐에 따라 결과적으로 최대 2배의 레이 트레이싱 성능 효과를 보여준다. NVIDIA 자체 벤치마크에 따르면 1.5~2배 사이의 성능을 보여준다고 한다. 또한, Interpolate Triangle Position 하드웨어 블록과 레이 트레이싱 모션 블러 기능이 추가되었다.

* '''3세대 텐서 코어'''
 연산 특화용 카드인 A100에 사용된 GA100과 동일한 3세대 텐서 코어가 지포스 그래픽 카드에도 도입되었다. 기본적인 특징은 GA100의 3세대 텐서 코어와 동일하지만, SM당 FP16 FMA 연산 성능이 GA100의 SM 대비 절반으로 감소되었다. 그 대신 게이밍에 활용되는 DLSS에서 8K 해상도 모드가 추가 지원됨에 따라 8K 해상도 환경에서도 DLSS를 적용할 수 있게 되었다.

* '''[[AV1]] 하드웨어 디코딩 지원'''
 [[NVIDIA PureVideo]]의 핵심인 NVDEC는 AV1 하드웨어 디코더가 내장되어 8K 60FPS 동영상 사양까지 CPU 도움받지 않고 재생이 가능하지만, 하드웨어 인코더인 [[https://www.nvidia.com/ko-kr/geforce/graphics-cards/30-series/compare/|NVENC는 이전 세대와 동일]]한 것으로 알려지면서 AV1 하드웨어 인코딩은 불가능한 것으로 못을 박았다.

* '''RTX IO 지원'''
 그래픽 카드에서 보조 저장 장치로 직접 접근할 수 있는 기능. DirectX 12 Ultimate의 DirectStorage와 연계된 기능이라고 소개된다.

* '''GDDR6X SGRAM 대응'''
 전통적인 Non-Return-to-Zero 시그널링에서 4단계 펄스 진폭 변조(PAM4) 시그널링으로 변경됨에 따라 클럭 사이클이 짧아져, 기존의 GDDR6 SGRAM보다 더 높은 클럭을 활용할 수 있게 되었다. 마이크론이 발표한 에너지 사용량은 1-bit당 약 7.25 pj로, 1-bit당 약 7.5 pj인 기존 GDDR6보다 약 3~4% 향상된 전성비를 보여주었다. 하지만 전성비 향상 폭이 작아서 클럭을 높이면 결과적인 소비 전력이 기존 GDDR6보다 증가될 수밖에 없고, 구현 난이도가 높아져서 얼마나 빨리 보급화 될지는 미지수. 게다가 GDDR5X SGRAM과 다르게 아직 JEDEC 표준 사양이 아닌 NVIDIA와 [[마이크론 테크놀로지]] 공동으로 개발된 비표준 사양이다.

* '''[[PCI-Express]] 4.0 대응'''
 [[CPU]] ↔ [[그래픽 카드]] 간의 통신 대역폭이 같은 PCIe 레인 개수 기준 2배로 빨라져, 단위 시간당 CPU가 그래픽 카드에게 더 많은 명령어를 전송할 수 있게 되었다. CPU 성능, 특히 싱글스레드 성능 자체가 높을 수록 PCIe 대역폭에 따른 게이밍 성능 향상 효과도 어느 정도 더 커질 수 있다. 같은 RTX 3080 기준으로 3세대 라이젠 CPU와 조합했을 때는 PCIe 대역폭에 따른 게이밍 [[https://www.techspot.com/review/2104-pcie4-vs-pcie3-gpu-performance/|성능 격차가 미미한 수준]]이었으나, 4세대 라이젠 CPU와 조합했을 때는 [[https://coolenjoy.net/bbs/39/18565?p=22|약 2~3% 격차]]로 유의미하게 나타났기 때문.

* '''3세대 NVLink와 그래픽 카드 라인별 지원 축소'''
 NVLink 인터페이스는 GA102가 사용된 라인 중에서도 RTX 3090, 3090Ti에만 탑재되었다. 3090이 TITAN RTX를 계승하는 포지션이기 때문에 GPU 컴퓨팅 수요를 위해 남겨놓은 듯. NVIDIA까지 멀티 GPU 지원을 축소하면서 게이밍을 위한 멀티 GPU 기술은 사실상 명맥이 끊긴 셈이 되었다.

* '''[[HDMI]] 2.1 대응'''
 HDMI 2.1 규격을 지원함으로써 8K [[HDR]] 60 Hz, 4K 해상도 HDR 240 Hz 출력이 가능해졌다. 또한, 디스플레이가 HDMI 2.1을 지원하는 단자가 탑재되어 있다면 단일 디스플레이로 8K HDR 게이밍을 즐길 수 있다. 단, [[DisplayPort]]는 여전히 1.4a 버전 그대로 유지되었다. 이미 DSC 기능으로 8K HDR 60 Hz, 4K 해상도 HDR 240 Hz 출력이 가능했기 때문에 최신 버전인 2.0 버전을 굳이 도입하지 않은 것일 수도 있다.

* '''Resizable Base Address Register'''
 AMD의 스마트 엑세스 메모리 기술이 발표되자 발표한 기능. GPU의 BAR 사이즈를 임의대로 변경해서 CPU에서 접근 가능한 GDDR6(X) SGRAM 용량을 최대한으로 늘려줄 수 있는 기능으로, SAM과는 다르게 CPU 종류를 가리지 않고 지원한다. 바이오스 단계에서 활성화 시켜주어야 한다. 2021년 2월 5일 기준, 아직 적용되지 않았으며, 이에 대응된 게임이 아직 많지 않고 오히려 역으로 성능 하락되는 게임도 있기 때문에 베타버전 메인보드 바이오스를 적용해서 얻는 성능상의 이익은 그다지 없는 것으로 보인다. 또한 정식 지원을 위해서는 메인보드 바이오스뿐만 아니라 비디오 바이오스도 [[Resizable BAR]]를 지원하는 바이오스로 업그레이드해야된다. 엔비디아 공식 발표에 의하면 3060은 이미 적용이 된 상태이며, 3060Ti 이상 모델부터는 2021년 3월 30일을 기점으로 엔비디아 및 각 그래픽 카드 제조사를 통해 [[VBIOS]]를 배포했다. 만일 그래픽 카드 드라이버, VBIOS, 메인보드 바이오스 셋 다 [[Resizable BAR]]대응 버전으로 업데이트를 했는데도 불구하고 [[Resizable BAR]]가 작동이 안 될시에는 메인보드 바이오스에 진입해서 CSM 설정을 비활성화 시켜야되며, 그래도 작동이 안 될시에는 UEFI 모드로 윈도우 재설치를 해야된다. 제품에 따라 듀얼 바이오스를 채택한 카드는 플래싱을 각각 한 번씩 두 번 해야 할 수도 있다.[* 대표적으로 GIGABYTE의 Aorus Xtreme 등] 제조사의 별도 안내가 없다면 사용중인 바이오스 하나만 플래시해도 무관하다. 최근에는 셰이더뿐만 아니라 텍스처 메모리도 급격하게 늘어나면서 리사이저블 바로 얻는 이득이 많아지고 있다. 특히 자신의 그래픽 카드 메모리가 6g라면 최신 게임들의 경우 그래픽 카드 메모리 사용량에 임계에 달하면 프레임률이 급격하게 떨어지는데 이 기술과 윈도우 11의 스마트 비디오 메모리 기술과 같이 동작하면 시스템 메모리를 이용해 약간의 버퍼 능력을 제공해서 완화 시켜준다. 다만 역으로 비디오 메모리가 많은 플래그십 모델의 경우 역으로 성능이 떨어지는 경우도 있으니 주의.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

GeForce 30 (문단 편집)

캡챠